当前位置: 开发笔记 > 编程语言 > 正文

文中|目标值_YYDS！几行Python代码，就实现了全面自动探索性数据分析

作者：mobiledu2502927723 | 来源：互联网 | 2023-09-18 14:28

篇首语：本文由编程笔记#小编为大家整理，主要介绍了YYDS！几行Python代码，就实现了全面自动探索性数据分析相关的知识，希望对你有一定的参考价值。来源丨数据STUDI

篇首语：本文由编程笔记#小编为大家整理，主要介绍了YYDS！几行Python代码，就实现了全面自动探索性数据分析相关的知识，希望对你有一定的参考价值。

来源丨数据STUDIO

探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA Python包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的Python包&＃xff0c;看看他们都有什么功能&＃xff0c;能在多大程度上帮我们自动化解决EDA的需求。

DTale
Pandas-profiling
sweetviz
autoviz
dataprep
KLib
dabl
speedML
datatile
edaviz

1、D-Tale

D-Tale使用Flask作为后端、React前端并且可以与ipython notebook和终端无缝集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。

import dtale import pandas as pd dtale.show(pd.read_csv("titanic.csv"))

D-Tale库用一行代码就可以生成一个报告&＃xff0c;其中包含数据集、相关性、图表和热图的总体总结&＃xff0c;并突出显示缺失的值等。D-Tale还可以为报告中的每个图表进行分析&＃xff0c;上面截图中我们可以看到图表是可以进行交互操作的。

2、Pandas-Profiling

Pandas-Profiling可以生成Pandas DataFrame的概要报告。panda-profiling扩展了pandas DataFrame df.profile_report()&＃xff0c;并且在大型数据集上工作得非常好&＃xff0c;它可以在几秒钟内创建报告。

#Install the below libaries before importing import pandas as pd from pandas_profiling import ProfileReport #EDA using pandas-profiling profile &＃61; ProfileReport(pd.read_csv(&＃39;titanic.csv&＃39;), explorative&＃61;True) #Saving results to a html file profile.to_file("output.html")

3、Sweetviz

Sweetviz是一个开源的Python库&＃xff0c;只需要两行Python代码就可以生成漂亮的可视化图&＃xff0c;将EDA(探索性数据分析)作为一个HTML应用程序启动。Sweetviz包是围绕快速可视化目标值和比较数据集构建的。

import pandas as pd import sweetviz as sv #EDA using Autoviz sweet_report &＃61; sv.analyze(pd.read_csv("titanic.csv")) #Saving results to HTML file sweet_report.show_html(&＃39;sweet_report.html&＃39;)

Sweetviz库生成的报告包含数据集、相关性、分类和数字特征关联等的总体总结。

4、AutoViz

Autoviz包可以用一行代码自动可视化任何大小的数据集&＃xff0c;并自动生成HTML、bokeh等报告。用户可以与AutoViz包生成的HTML报告进行交互。

import pandas as pd from autoviz.AutoViz_Class import AutoViz_Class #EDA using Autoviz autoviz &＃61; AutoViz_Class().AutoViz(&＃39;train.csv&＃39;)

5、Dataprep

Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上&＃xff0c;可以很容易地与其他Python库集成。

DataPrep的运行速度这10个包中最快的&＃xff0c;他在几秒钟内就可以为Pandas/Dask DataFrame生成报告。

from dataprep.datasets import load_dataset from dataprep.eda import create_report df &＃61; load_dataset("titanic.csv") create_report(df).show_browser()

6、Klib

klib是一个用于导入、清理、分析和预处理数据的Python库。

import klib import pandas as pd df &＃61; pd.read_csv(&＃39;DATASET.csv&＃39;) klib.missingval_plot(df)

klib.corr_plot(df_cleaned, annot&＃61;False)

klib.dist_plot(df_cleaned[&＃39;Win_Prob&＃39;])

klib.cat_plot(df, figsize&＃61;(50,15))

klibe虽然提供了很多的分析函数&＃xff0c;但是对于每一个分析需要我们手动的编写代码&＃xff0c;所以只能说是半自动化的操作&＃xff0c;但是如果我们需要更定制化的分析&＃xff0c;他是非常方便的。

7、Dabl

Dabl不太关注单个列的统计度量&＃xff0c;而是更多地关注通过可视化提供快速概述&＃xff0c;以及方便的机器学习预处理和模型搜索。

dabl中的Plot()函数可以通过绘制各种图来实现可视化&＃xff0c;包括:

目标分布图
散点图
线性判别分析

import pandas as pd import dabl df &＃61; pd.read_csv("titanic.csv") dabl.plot(df, target_col&＃61;"Survived")

8、Speedml

SpeedML是用于快速启动机器学习管道的Python包。SpeedML整合了一些常用的ML包&＃xff0c;包括 Pandas&＃xff0c;Numpy&＃xff0c;Sklearn&＃xff0c;Xgboost 和 Matplotlib&＃xff0c;所以说其实SpeedML不仅仅包含自动化EDA的功能。

SpeedML官方说&＃xff0c;使用它可以基于迭代进行开发&＃xff0c;将编码时间缩短了70&＃xff05;。

from speedml import Speedml sml &＃61; Speedml(&＃39;../input/train.csv&＃39;, &＃39;../input/test.csv&＃39;, target &＃61; &＃39;Survived&＃39;, uid &＃61; &＃39;PassengerId&＃39;) sml.train.head()

sml.plot.correlate()

sml.plot.distribute()

sml.plot.ordinal(&＃39;Parch&＃39;)

sml.plot.ordinal(&＃39;SibSp&＃39;)

sml.plot.continuous(&＃39;Age&＃39;)

9、DataTile

DataTile&＃xff08;以前称为Pandas-Summary&＃xff09;是一个开源的Python软件包&＃xff0c;负责管理&＃xff0c;汇总和可视化数据。DataTile基本上是PANDAS DataFrame describe&＃xff08;&＃xff09;函数的扩展。

import pandas as pd from datatile.summary.df import DataFrameSummary df &＃61; pd.read_csv(&＃39;titanic.csv&＃39;) dfs &＃61; DataFrameSummary(df) dfs.summary()

10、edaviz

edaviz是一个可以在Jupyter Notebook和Jupyter Lab中进行数据探索和可视化的python库&＃xff0c;他本来是非常好用的&＃xff0c;但是后来被砖厂(Databricks)收购并且整合到bamboolib 中&＃xff0c;所以这里就简单的给个演示。

总结

在本文中&＃xff0c;我们介绍了10个自动探索性数据分析Python软件包&＃xff0c;这些软件包可以在几行Python代码中生成数据摘要并进行可视化。通过自动化的工作可以节省我们的很多时间。

Dataprep是我最常用的EDA包&＃xff0c;AutoViz和D-table也是不错的选择&＃xff0c;如果你需要定制化分析可以使用Klib&＃xff0c;SpeedML整合的东西比较多&＃xff0c;单独使用它啊进行EDA分析不是特别的适用&＃xff0c;其他的包可以根据个人喜好选择&＃xff0c;其实都还是很好用的&＃xff0c;最后edaviz就不要考虑了&＃xff0c;因为已经不开源了。

推荐阅读点击标题可跳转

Python学习手册
Pandas学习大礼包
100&＃43;Python爬虫项目
Python数据分析入门手册
浙江大学内部Python教程
240个Python练习案例附源码
70个Python经典实用练手项目
整理了30款Python小游戏附源码

推荐阅读

char
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
foreach
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
main
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
char
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
foreach
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
main
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
import
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
perl
Debian系统中配置Locale环境

本文详细介绍了如何在Debian系统中正确配置Locale，以确保多语言支持和避免常见的警告信息。 ... [详细]

蜡笔小新 2024-12-26 10:12:14
import
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
import
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
settings
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
char
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
char
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
char
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47

mobiledu2502927723

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章